Construction of a Free Large Part-of-Speech Annotated Corpus in French (Construction d'un large corpus écrit libre annoté morpho-syntaxiquement en français) [in French]
نویسندگان
چکیده
RÉSUMÉ Cet article étudie la possibilité de créer un nouveau corpus écrit en français annoté morphosyntaxiquement à partir d’un corpus annoté existant. Nos objectifs sont de se libérer de la licence d’exploitation contraignante du corpus d’origine et d’obtenir une modernisation perpétuelle des textes. Nous montrons qu’un corpus pré-annoté automatiquement peut permettre d’entraîner un étiqueteur produisant des performances état-de-l’art, si ce corpus est suffisamment grand.
منابع مشابه
Building Monolingual Comparable and Annotated Corpora: An experimental study from a pos tagged corpus (Construire un corpus monolingue annoté comparable Expérience à partir d'un corpus annoté morpho-syntaxiquement) [in French]
This work is motivated by the will of creating a new part-of-speech annotated corpus in French from an existing one. We propose a general and operational definition of the comparability relation between annotated monolingual corpora. We also propose a comparability measure and a procedure to build semi-automatically a comparable corpus from a source one. We study the use of the perplexity (info...
متن کاملANCOR, the first large French speaking corpus of conversational speech annotated in coreference to be freely available (ANCOR, premier corpus de français parlé d'envergure annoté en coréférence et distribué librement) [in French]
متن کامل
TCOF-POS : un corpus libre de français parlé annoté en morphosyntaxe (TCOF-POS : A Freely Available POS-Tagged Corpus of Spoken French) [in French]
TCOF-POS : A Freely Available POS-Tagged Corpus of Spoken French This article details the creation of TCOF-POS, the first freely available corpus of spontaneous spoken French. We present here the methodology that was followed in order to obtain the best possible quality in the final resource. This corpus already is freely available and can be used as a training/validation corpus for NLP tools, ...
متن کاملAutomatic identification of document sections for designing a French clinical corpus (Identification automatique de zones dans des documents pour la constitution d'un corpus médical en français) [in French]
Résumé. De nombreuses informations cliniques sont contenues dans le texte des dossiers électroniques de patients et ne sont pas directement accessibles à des fins de traitement automatique. Pour pallier cela, nous préparons un large corpus annoté de documents cliniques. Une première étape de ce travail consiste à séparer le contenu médical des documents et les informations administratives conte...
متن کاملBuilding a Bilingual Vietnamese-French Named Entity Annotated Corpus through Cross-Linguistic Projection
Résumé. La création de ressources linguistiques de bonne qualité annotées en entités nommées est très coûteuse en temps et en main d’œuvre. La plupart des corpus standards sont disponibles pour l’anglais mais pas pour les langues peu dotées, comme le vietnamien. Pour les langues asiatiques, cette tâche reste très difficile. Le présent article concerne la création automatique de corpus annotés e...
متن کامل